شناسایی داده های نامتعارف با استفاده از روش های آماری نیمه نظارتی در شرایط تغییر توزیع متغیر

پایان نامه
  • وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی کامپیوتر
  • نویسنده اتوسا سالاری
  • استاد راهنما اشکان سامی
  • سال انتشار 1392
چکیده

یکی از حوزه های مهم در داده کاوی و یادگیری ماشین، حوزه شناسایی داده پرت می باشد. روش های بسیاری برای شناسایی داده پرت ارائه شده که همه آن ها از فرض یکسان بودن توزیع احتمال داده های تست نسبت به داده های آموزش پیروی می کنند. اما در بسیاری از برنامه های کاربردی واقعی نظیر شناسایی اسپم یا تقلب، تفاوت توزیع داده های آموزش و تست امری محتمل است. زمانی که داده های ورودی آموزش و تست از توزیع غیر یکسانی پیروی کنند در حالی که توزیع خروجی به شرط ورودی در آن ها ثابت بماند، با شرایط تغییر (توزیع) متغیر روبرو خواهیم بود. مطالعات ما نشان می دهد که برای شناسایی داده نامتعارف تحت این شرایط تاکنون راه حلی ارائه نشده است. در این تحقیق دو روش نیمه نظارتی تطبیق پذیر با شرایط تغییر توزیع متغیر برای شناسایی داده پرت ارائه شده است که هر دو روش از یک تکنیک وزن دهی بر اساس اهمیت برای تطبیق پذیری استفاده می کنند. ایده اصلی در روش اول ترکیب تکنیک رگرسیون وزن دار با تکنیک شناسایی داده نامتعارف است. در روش دوم نیز با مقایسه چگالی داده تست نسبت به داده های نرمال آموزش با وزن بیشتر، نسبت به شناسایی داده نامتعارف اقدام می کنیم. نتایج آزمایشات نشان می دهند که از نظر تطبیق با شرایط تغییرتوزیع متغیر روش های پیشنهادی عملکرد بهتری نسبت به روش های موجود برای شناسایی داده نامتعارف دارند.

منابع مشابه

آنالیز داده های ژل های الکتروفورز دو بعدی با استفاده از روش های آماری چند متغیره

سابقه و هدف : در سـال های اخیـر تکنولـوژی مـربوط به تـوصــیف لکه های پروتئینی نمایان شده بر ژل های الکتروفورز دو بعدی، توسعه ی قابل ملاحظه ای یافته و نرم افزارهای متعدد آماری آنالیز ژل نیز ایجاد و گسترش یافته است که تأثیر این ابتکارات بر ارتقاء پروتئومیک بسیار چشمگیر است.آنالیز داده های عظیم پروتئومیکی با دارا بودن متغیر های زیاد نیاز به روش های چند متغیره است که امکان آنالیز آماری همزمان چندین...

متن کامل

تعیین لبه داده های میدان گرانی با استفاده از روش آماری CCMS

تعیین لبه یک تفسیر کیفی و روشی سریع برای بدست آوردن اطلاعات از بی هنجاری‌های مولد میدان گرانی است. در تعیین لبه دقت در برآورد مرز بی هنجاری‌ها و تفکیک بی هنجاری‌های که دامنه آنها با هم تداخل دارد بسیار مهم است. از جمله معایب روش‌های تعیین لبه، حساس بودن به نوفه؛ حساس بودن به عمق بی هنجاری، برآورد لبه بزرگتر از مقدار واقعی، عدم تفکیک بی هنجاری‌ها و .. است. به همین دلیل روش‌های متنوعی برای تعیین ...

متن کامل

شناسایی حرکات انسان در داده های ویدئویی با استفاده از روشهای یادگیری نیمه نظارتی

شناسایی حرکت انسان در داده های ویدئویی به عنوان یک موضوع پژوهشی مهم در حوزه بینایی ماشین، توجه بسیاری از محققان را به خود جلب کرده است. استخراج اطلاعات حرکتی انسان در ویدئو سبب کشف الگوهای مفید می شود که توسط آن ها می توان به طبقه بندی و خوشه بندی داده های ویدئویی پرداخت. بازشناسی و فهم خودکار اعمال انسان یک نیاز رو به افزایش در حوزه های کاربردی مهمی نظیر سیستم های امنیتی و نظارتی به ویژه در مک...

شناسایی خطاهای داده های خام بویه های موج نگار با استفاده از روش ضریب داده پرت محلی

استخراج مشخصات دریا معمولاً از طریق بویه‌های موج نگار انجام می‌شود. اما ثبت داده توسط موج نگارها معمولاً با خطاهایی همراه است. لذا قبل از استخراج هرگونه اطلاعاتی لازم است این خطاها را شناخت و آنها را حذف و یا تصحیح کرد. هدف از این تحقیق، شناسایی خطاهای موجود در برداشت داده-های خام از بویه‌های موج نگار، با استفاده از روش ضریب داده پرت محلی (LOF) است. LOF روشی قدرتمند جهت شناسایی ناهنجاری داده‌ها د...

متن کامل

رخدادکاوی در داده های ویدئویی با استفاده از روش های یادگیری نیمه نظارتی

امروزه حجم زیادی از داده های ویدئویی در دسترس افراد است؛ داده های ویدئویی هم اکنون بیش از نیمی از ترافیک اینترنت را به خود اختصاص داده اند. سالانه 9000ساعت محصولات سینمایی و 8 میلیون ساعت محصولات تلویزیونی تولید می شود، این در حالی است که پیش بینی می شود تا سال 2014 بیش از 90% ظرفیت شبکه جهانی اینترنت به انتقال داده های ویدئویی اختصاص یابد. برای دسترسی کارا به این حجم عظیم داده، نیاز شدیدی به ا...

15 صفحه اول

حاشیه‌نویسی تصویر با استفاده از الگوریتم خوشه‌بندی نیمه نظارتی طیفی

Abstract: Due to the growth of digital images require efficient methods to annotate the images is sense. In this paper, a semi-supervised spectral clustering with relevance feedback is used to annotate digital photos which is overcome the local minima problem on clustering methods by using some labeled information given by users. Performance of the proposed method is tested on Corel 5K dataset ...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه شیراز - دانشکده مهندسی کامپیوتر

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023